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Prufungsantrag gem. § 44 PatG 1st gestellt 
@ Datenverarbeitungseinrichtung 

(§) In Verbindung mit einer Datenverarbeitungseinrichtung, 
wobei ein (im folgenden Datenflul^prozessor - DFP - genann- 
ter) integrierter Schaltungskreis (Chip) nnit einer Vielzahl 
insbesondere orthogonal zueinander angeordneter honnogen 
strukturierter Zelten mit je einer Mehrzahi jeweils logisch 
gleicher und strukturell identisch angeordneter Bausteine 
vorgesehen ist, dessen Zellen zeilen- und spaltenweise, 
gegebenenfails gruppenweise zusamnnengefalkt, nnit Ein- 
/Ausgangsanschlussen des tntegrierten Schaltkreises ver- 
bunden sind, ist erfindungsgemaH den Zellen etne Ladelogik 
zugeordnet uber die sie je fur sich und gegebenenfails 
gruppenweise zusammengefaJ&t so programmierbar (konfi- 
gurierbar) sind* da& beliebige logische Funktionen und/oder 
Vemetzungen untereinander venffzlerbar smd« und zwar 
derart, daS eine Manipulation der DFP-Konfiguration wah- 
rend des Betrlebes (oder zur Laufzeit), d. h. die Modtflkation 
^ funktioneller Telle (MACROS) des OFPs erfofgen kann, ohne 
da& andere funktionelle Telle angehalten warden mussen 
Oder in ihrer Funktlon beeintrachtigt werden. 
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Die vorliegende Erfindung bezieht sich auf eine Da- 
tenverarbeitungseinrichtung, d. h. eine Hardwareeinheit 
zur logischen Manipulation (Verkniipfung) von in binfi- 
rer Form vorliegenden Daten(Infonnationen). 

Derartige Datenverarbeitungseinrichtungen sind 
mittlerweiie lange bekannt und sie haben bereits breite 
Anwendung und Anerkennung gefunden. Die prinzipiel- 
le Aufbau- und Arbeitsstruktur der bekannten Daten- 
verarbeitungseinrichtungen ist in etwa so zu definieren, 
daB eine arithmetisch-Iogische Verknupfungseinheit 
vorgesehen ist, in der die zu verknupfenden Daten einer 
programmtechnischen Anweisung (Software) zufolge 
verarbeitet werden. Die Daten werden dabei tiber ein 
Steuerwerk in raehr oder weniger komplexen Adressie- 
rungsvorg^ngen entsprechend abgerufen und zunachst 
in Arbeitsregistern bereitgestellt; nach der logischen 
VerknUpfung werden dann die neuen Daten in einer 
vorgegebenen Speicherstelle wieder abgelegt Die 
arithmetisch-Iogische VerknUpfungseinheit besteht da- 
bei aus logischen VerknQpfungsbausteinen (Gatter, 
Glieder), die jeweils so miteinander gekoppelt sind, daB 
die zu manipulierenden Daten der zugrunde liegenden 
Software entsprechend den vier Grundrechenarten ge- 
maB logisch verarbeitet werden. 

Es ist leicht nachzuvollziehen, daB auf der Basis der 
bekannten Strukturen relativ viel Rechenzeit dafur er- 
forderlich ist, die zu manipulierenden Daten auszulesen, 
und die Arbeitsregister zu uberfUhren, den spezifischen 
Logikbausteinen in der arithmetisch-logischen Ver- 
knOpfungseinheit zuzuieiten und schlieBlich wieder ab- 
zuspeichern. Es ist ferner einsichtig, dafi die Hardware- 
Struktur der arithmedsch-logischen VerknQpfungsein- 
heit insoweit nicht als optimal betrachtet werden kann, 
als schlieBlich die hardwarem^Big vorhandenen inte- 
grierten logischen Bausteine stets nur in ein und dersel- 
ben Art und Weise im Gesamtsystem aktiv benutzt wer- 
den. Ebenso wird durch strikte Hardwarevorgabe ein 
Aneinanderreihen von Funktionen in sogenannten Pipe- 
lines sehr erschwert oder eingeschrankt, was zwangs- 
laufig ein haufiges Registerumladen zwischen Arbeits- 
registern und Rechenwerk bedeutet Derartige Baustei- 
ne sind des weiteren nur schlecht kaskadierbar und er- 
fordern dann sehr viel Programmierarbeit. 

Ein zus^tzlicher Vorteil der vorliegenden ErHndung 
liegt darin, daB eine Qber einen weiten Raum skalierbare 
Parallelitat zur Verfugung steht Hierbei wird eine Basis 
zum schnellen und flexibien Aufbau von neuronalen 
Strukturen geschaffen, wie die bis dato lediglich mit 
erheblichem Aufwand simuliert werden k6nnen» 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, eine im folgenden DatenfluBpro- 
zessor (DFP) genannte Datenverarbeitungseinrichtung 
anzugeben, bei der eine hdhere beziehungsweise besse- 
re Flexibilitat der Gesamtstruktur und des Datenflusses 
sowie der Pipelining- und Kaskadiermoglichkeiten zu 
einer Erhohung der Rechnerbeziehungsweise Verkniip- 
fungsleistung fQhrt 

AuBer dem Einsatz als reiner DatenfluBprozessor, 
soil der DFP folgende weitere Aufgaben erfullen kdn- 
nen: 

— Einsatz als universeller Baustein zum Aufbau 
von herkommlichen Rechnern, wobei der Aufbau 
einfacher und billiger werden solL 

— Einsatz in neuronalen Netzen. 



Diese Aufgabe wird dadurch gelost, daB ein integrier- 
ter Schaltkreis (Chip) mit einer Vielzahl insbesondere 
orthogonal zueinander angeordneter Zellen mit je einer 
Mehrzahl jeweils logisch gleicher und strukturell iden- 
5 tisch angeordneter Zeilen vorgesehen ist deren Anord- 
nung, sowie die interne Busstruktur, zur Erleichterung 
der Programmierung ^uBerst homogen ist Dennoch ist 
es denkbar innerhalb eines Datenflufiprozessors Zellen 
mit verschiedenen Zeliogiken und Zellstrukturen unter- 
10 zubringen, um so die Leistungsfahigkeit zu erhohen, in- 
dem zum Beispiel fur Speicheransteuerungen andere 
Zellen als fur arithmetische Operationen existieren. Ins- 
besondere kann fur neuronale Netze eine gewisse Spe- 
zialisierung von Vorteil sein. Den Zellen ist eine Ladelo- 
15 gik zugeordnet, Qber die die Zeilen je fur sich und gege- 
benenfalls gruppenweise in sogenannte MACROs zu- 
sanunengefaBt so programmierbar sind, daB einerseits 
beliebige logische Funktionen, andererseits aber auch 
die VerknQpfung der Zellen untereinander in weiten 
20 Bereichen verifizierbar sind. Dies wird erreicht indem 
jeder einzeinen Zelle ein gewisser Speicherplatz zur 
Verfiigung steht, in dem die Konfigurationsdaten abge- 
legt sind Anhand dieser Daten werden Multiplexer oder 
Transistoren in der Zelle beschaltet um die jeweilige 
25 Zellfunktionzugewahrleisten(sieheFig. 12). 

Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, einen DatenfluBprozessor vorzuschiagen» der zel- 
lular aufgebaut ist und dessen Zellen Qber eine externe 
30 Ladelogik im arithmetisch-logischen Sinne quasi belie- 
big neu konfiguriert werden kdnnen. Dabei ist es von 
auBerster Notwendigkeit, daB die betreffenden Zeilen 
einzeln und ohne Beeinflussung der ubrigen Zeilen oder 
gar einer Stillegung des gesamten Bausteins umkonfigu- 
35 riert werden konnen. Der DatenfluBprozessor gemaB 
der vorliegenden Erfindung kann so wahrend eines er- 
sten Arbeitszyklus als Addierer und wahrend eines spa- 
teren Arbeitszyklus als Multiplizierer "programmiert" 
werden, wobei die Anzahl der fQr die Addition bezie- 
40 hungsweise die Multiplikation erforderlichen Zellen 
durchaus unterschiedlich sein konnen. Dabei bleibt die 
Plazierung der bereits geladenen MACROs erhalten; 
der Ladelogik beziehungsweise dem Compiler obliegt 
es, das neu zu ladende MACRO innerhalb der freien 
45 Zellen zu partitionieren (d. h. das zu ladende MACRO 
so zu zerlegen, dafi es sich optimal einfugen l^Bt). Die 
Ablaufsteuerung des Programms wird dabei von der 
Ladelogik Qbemommen, indem sie gemaB dem momen- 
tan ausgefQhrten Programmabschnitt die entsprechen- 
50 den MACROs in den Baustein ladt, wobei der Ladevor- 
gang von der spater beschriebenen Synchronisationslo- 
gik mitgesteuert wird, indem sie den Zeitpunkt des Um- 
ladens festlegt Daher entspricht der DFP nicht der be- 
kannten von-Neumann-Architektur, da die Daten- und 
55 Programmspeicher getrennt sind. Dies bedeutet jedoch 
gleichzeitig eine hdhere Sicherheit, da fehlerhafte Pro- 
gramme keinen CODE, sondem lediglich DATEN zer- 
storen konnen. 
Um den DatenfluBprozessor eine arbeitsfShige Struk- 
60 tur zu geben, werden einige Zellen, und zwar unter an- 
derem die Eingabe-ZAusgabefunktionen (I/O) und Spei- 
chermanagementfunktionen vor dem Laden der Pro- 
gramme geladen und bleiben fur gewohnlich wahrend 
der gesamten Laufzeit konstant. Dies ist erforderlich um 
65 den DatenfluBprozessor an seine Hardwareumgebung 
anzupassen. Die ubrigen Zellen werden zu sogenannten 
MACROs zusammengefaBt und konnen wahrend der 
Laufzeit nahezu beliebig und ohne Beeinflussung der 
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Nachbarzellen umkonfiguriert werden. Dazu sind die 
Zellen einzeln und direkt adressierbar. 

Um die Umstnikturierung (das Umladen) der Zellen 
Oder MACROS mit der Ladelogik zu synchronisieren, 
kann — wo notwendig, da nur UmgeJaden werden darf, 
wenn die MACROS mit ihrer aiten Tatigkeit fertig sind 
— eine SynchronisationsschaJtung als MACRO auf dem 
DatenfluBprozessor untergebracht werden, die die ent- 
sprechenden Signale an die Ladelogik absendet. Hierzu 
kann eventuell eine Modifikation der gewohnlichen 
MACROS von Noten sein. da diese dann der Synchroni- 
sations-Schaltung Zustandsinformationen zur VerfO- 
gung stellen miissen. 

Diese Zustandsinformationen signatisieren der Syn- 
chronisationslogik fQr gewohnlich, daB einzelne MA- 
CROS ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispie! die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. Dii. das Pro- 
gramm wird an einer anderen S telle fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Synchronisations-Signale durch einen Prioritats- 
dekoder erfolgen. Eine derartige — einfache — Logik 
ist in Fig. 13 gezeichnet. Die Logik besitzt sieben Ein- 
gangssignale durch die die sieben MACROs ihre Zu- 
standsinformation abgeben. In diesem Fail soli 0 fur "in 
Arbeit" und 1 fiir "fertig" stehen. Die Logik besitzt drei 
Ausgangssignale, die an die Ladelogik gefuhrt werden, 
wobei der Zustand 000 als Ruhezustand gilt Liegt ein 
Signal an einem der sieben EingSnge an, so findet eine 
Dezimal-Bin^-Umsetzung statt, so wird zum Beispiel 
Sync6 als 11 0 dargesteilt, was der Ladelogik anzeigt, daB 
das MACRO, welches Sync6 bedient, seine Aufgabe be- 
endet hat Liegen gleichzeitig mehrere Synchronisa- 
tions-Signale am Eingang an, so gibt die Synchronisa- 
tionsschaltung das Signal mit der hCchsten Prioritat an 
die Ladelogik weiter; liegen zum Beispiel SyncO, Sync4 
und Sync6 an, so reicht die Syncronistaions-Schaltung 
zunachst Sync6 an die Ladelogik weiter. Nachdem die 
entsprechenden MACROs umgeladen sind und somit 
Sync6 nicht mehr anliegt wird Sync4 weitergeleitet usw. 
Zur Verdeutlichung dieses Prinzips kann der Standard- 
TTL-Baustein 74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 
wetls optimal und gegebenenfalls dynamisch auf eine zu 
I5sende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe VorteO verbunden, daB neue Normen 
oder dergleichen einzig und allein durch eine Umpro- 
grammierung des DatenfluBprozessors umgesetzt wer- 
den konnen und nicht — wie bisher — einen Austausch 
mit entsprechendem Anfall von Dektronikschrott be- 
dingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhohung des 
Parallelisierungsgrades. der Rechenieistung, sowie der 
NetzgrdBe in neuronaien Netzen fiihrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (lO-Pin) der DatenfluBpro- 
zessoren, um moglichst keine Einschrlnkungen auf die 
Programme zu haben. 

In Fig. 14 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt. Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 15). Prinzipiell sind 
damit zwei Kaskadierungsmethoden denkbar: 



a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispie] zwei lO-Pins pro Kantenzelle und vier lO- 
Pins pro Eckzeile bedeutet AUerdings hat der 
5 Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefiihrt werden, 
wodurch die Kaskadierung nicht voUstandig homo- 
gen ist (Globale Verbindungen zwischen mehreren 
Zellen, fur gewohnlich zwischen einer kompletten 
10 Zellenreihe oder -spalte — siehe Fig. 6 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 16a zeigt den Aufbau innerhalb eines DFPs, 
Fig. 17a zeigt die daraus resultierende Kaskadie- 
rung von mehreren DFPs (drei gezeichnet). 
15 b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der benotigten Trei- 
ber/IO-Plns und Leitungen drastisch erhoht, in un- 
serem Beispiel auf sechs I O- Pins pro Kantenzelle 
und zwoif lO-Pins pro Eckzeile. Dadurch ist eine 
20 voUstandige Homogenitat bei der Kaskadierung 
gegeben. 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
25 den kdnnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht 
da bekanntlich jede Verbindung nur von einem Signal 
genutzt werden kann. Um diesen Effekt zu minimieren, 
kann nach einer gewissen Lange der globalen Verbin- 
30 dungen ein Treiber eingeschleift werden, Der Treiber 
hat zum einen eine Verstarkung des Signals zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
Las ten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
35 terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 
sofern der Treiber in Tristate ist, ansonsten wird ein 
Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
40 ber der einzelnen globalen Leitungen auch einzeln an- 
gesteuert werden konnea d, h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
geschleift Soniit konnen auf einer globalen Verbindung 
durchaus abschnittweise verschiedene Signale anliegen, 
45 wahrend die globale Nachbarverbindung tats^chlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFig. 22). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
50 Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festplatte, die im lO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 
durchgereicht werden, indem die DatenfluBprozessoren 
die Daten von der Platte in den Shared-Memory schrei- 
55 ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier. wie bereits erwahnt, keine von- Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
60 Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknupft werden soilen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
65 spruche. 

Eine besondere Verwendung des erfindungsgemaBen 
DatenfluBprozessors ist darin zu sehen, daB er in Ver- 
bindung mit geeigneten £in-/Ausgabe-Einheiten einer- 
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seits und einem Speicher andererseits die Basis fiir einen 
kompletten (komplexen) Rechner bilden kann, Dabei 
kann ein GroBteil der lO-Funktionen als MACROs auf 
dem DatenfluBprozessor implementiert werden und es 
brauchen momentan lediglich Speziaibausteine (Ether- 
net-Treiber, VRAMS . . . ) extern zugefugt zu werden. 
Bei einer Normanderung oder Verbesserung muB dann 
wie bereits angedeutet nur das MACRO softwareseitig 
gewechseit werden; ein Eingriff in die Hardware ist 
nicht notwendig. Es bietet sich hier an, einen IO-(Einga- 
be-ZAusgabe-) Stecker festzulegen. tiber welchen dann 
die Zusatzbausteine angeschlossen werden konnen. 

Fig. 20 zeigt den stark vereinfachten Aufbau eines 
heute Qblichen Rechners. Durch den Einsatz eines DFP- 
Bausteins konnen erhebliche Teile eingespart werden 
(Fig. 21), wobei die entsprechenden herkommlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 
tur- und Videointerface, sowie der parailelen und seriel- 
len Schnittstellen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DPP nicht 
nachbildbaren Teile wie Speicher und Leitungstreiber 
mit nicht TTL-Pegeln oder fflr hohe Lasten mflssen ex- 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gOnstige Froduktion gegeben, da ein und 
derselbe Baustein sehr h9ufig verwendet wird, das Lay- 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Rech- 
ners durch die Ladelogik bestimmt, die hier fur gewdhn- 
lich nur zu Beginn der Abarbeitung (nach einem Reset) 
das DFP-Array ladt, wodurch eine gunstige FehJerkor- 
rektur- und Erweiterungsmoglichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funktion als DFP arbeitet sondem 
lediglich ein hochkompiexes und frei programmierbares 
Logikarray zur Verfagung stellt, sich hierbei jedoch von 
herkdmmlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet 

Ein weiteres Einsatzgebiet des Bausteins ist der Auf- 
bau groBer neuronaler Netze. Sein besonderer Vorzug 
liegt hierbei in seiner hohen Gatterdichte, seiner ausge- 
zeichneten Kaskadierbarkeit, sowie seiner Homogeni- 
tat. Ein Lemvorgang, der eine Anderung einzelner axio- 
matischer Verbindungen beziehungsweise einzelner 
Zellfunktionen beinhaltet ist auf Qblichen Baustemen 
ebenso schlecht durchfuhrbar, wie der Aufbau groBer 
homogener und gleichzeitig flexibler Zellstrukturen. 
Die dynamische Umkonfigurierbarkeit ermoglicht erst- 
malig die optimale Simulation von LernvorgSngen. 

Die vorliegende Erfindung wird im folgenden anhand 
der weiteren Figuren naher erlautert. Insgesamt zeigen 

Fig. 1 ein Schaltsymbol for einen 8-Bit- Addierer; 

Fig. 2 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 
dierern bestehenden 8-Bit- Addierer nach Fig. 1 ; 

Fig. 3 eine logische Stniktur ernes 1-Bit-Addierers 
entsprechend Fig. 2; 

Fig. 4 eine Zellenstniktur des 1-Bit-Addierers ent- 
sprechend Fig. 3; 

Fig. 5 einen der Zellenstruktur nach Fig. 1 entspre- 
chend aufgebauten 8-Bit- Addierer; 

Fig. 6 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1 -Bit- Addierer 
gemSB Fig. 4 beziehungsweise Fig. 5) mit den erforder- 
lichen LeitungsanschlQssen; 

Fig. 7 einen Teilausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahl von Zellen und einem 
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separierten SUBMACRO X gemaB Fig. 6; 

Fig. 8 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 
Zellen und einer extern zugeordneten Ladelogik; 
5 Fig. 9 ein erstes AusfQhrungsbeispiel einer Mehrzahl 
miteinander zu einem Rechenwerk gekoppeiter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig. 8; 

Fig. 10 ein zweites Ausfuhrungsbeispiel einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppeiter in- 
10 tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig. 8; 

Fig. 1 1 ein Ausfuhrungsbeispiel eines MACRO zur 
Addition zweier Zahlenreihen; 
Fig. 12 einen beispielhaften Aufbau einer Zelle mit 
15 Multiplexem zur Auswahl der jeweiligen logischen Bau- 
steine; 

Fig. 13 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefuhrte Synchronisationslogik; 
Fig. 14 die Kaskadierung von vier DFPs, wobei die 
20 Verbindung zwischen den lO-Pins nur schematisch dar- 
gestellt sind (tatstchlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 15 die durch die Kaskadierung erreichte Homo- 
genitat; 

25 Fig. 1 6a die Struktur der E/A-Zellen, wobei die globa- 
len Verbindungen nicht herausgefiihrt werden, 

Fig. 16b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefiihrten globalen Verbindungen; 
Fig. 17a die aus Fig. 16a resultierende Kaskadierung, 
30 wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 14) gezeichnet sind; 

Fig. 17b die aus Fig. 16b resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
35 renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 14) gezeichnet sind; 

Fig. 18a eine Multiplikationsschaltung (vergleiche 
Fig. 11a); 

Fig. 18b die interne Struktur des DFPs nach dem La- 
40 den (vergleiche Fig. 1 1 b); 

Fig. 19c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47, 49; 

Fig. 19 eine Kaskadenschaltung, wobei der Addierer 
aus Fig. 1 1 und der Multiplizierer aus Fig. 18 zur Steige- 
45 rung der Rechenleistung hintereinander geschaltet sind; 
Fig. 20 den stark schematisierten Aufbau eines her- 
kdmmlichen Rechners; 

Fig. 21 den mdglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 
50 Fig. 22 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-)Treibern eines DFPs. 

In Fig. 1 ist ein Schaltsymbol eines 8-Bit-Addierers 
dargestellt. Das Schaltsymbol besteht aus einem qua- 
dratischen Baustein 1 mit acht EingSngen A 0 ... 7 fur 
55 ein erstes Datenwort A und acht Eingangen B 0 ... 7 fur 
ein zweites (zu addierendes) Datenwort B. Die jeweils 
acht Eingange Ai, Bi werden erganzt durch einen weite- 
ren Eingang Oein iiber den dem Baustein 1 gegebenen- 
falls ein Obertrag zugeleitet wird Der Baustein 1 hat 
60 funktions- und bestimmungsgemaB acht Ausgange S 0 
... 7 fur binaren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 1 dargestellte Schaltsymbol ist in Fig. 2 als 
65 Anordnung sogenannter SUBMACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fQr ein 
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Obertragsbit Die 1-Bit-Addierer 3 weisen darOberhin- 
aus einen Ausgang fiir den Summanden und einen Aus- 
gang fiir den Obertrag Oaus auf. 

In Fig. 3 ist die binare Logik eines l-Bit-Addierers 
beziehungsweise eines SUBMACROS 2 nach Fig- 2 dar- 
gestellt Analog zu Fig. 2 weist diese Schaltlogik je ei- 
nen Eingang Ai, Bi fiir die konjugierten Bits der zu 
verknupfenden Daten auf; femer ist ein Eingang Oein 
fiir den Obertrag vorgesehen. Diese Bits werden den 
dargestellten Verbindungen beziehungsweise Verknup- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 
NAND-Gliedern 6 verknupft, so dafi am Ausgangsan- 
schluB Si und am Ausgang fiir den Obertrag Oaus die 
einem Volladdierer entsprechenden Verknflpfungser- 
gebnisse (Si, Oaus) anstehen. 

Die Erfindung setzt da ein, wo es — wie in Fig. 4 
dargestellt — darum geht, das in Fig. 3 gezeigte SUB- 
MACRO 2 Oder eine oder mehrere beliebige Funk- 
tion(en) in geeigneter Weise in einer Zellstruktur zu 
implementieren. Dies geschieht auf der Grundlage lo- 
gisch und strukturell identischer Zellen 10, deren einzel- 
ne logische Bausteine der auszufiihrenden Verknup- 
fungsfunktion entsprechend miteinander gekoppelt 
werden, und zwar mittels der noch zu beschreibenden 
Ladelogik. GemiB der in Fig. 4 gezeigten, von der 
Schaltlogik nach Fig. 3 abgeleiieten Verknupfungsiogik 
fiir einen l-Bit-Addierer sind je zwei Zellen 10.1, 10.2 
beziiglich der logischen Bausteine insoweit gleich, daB 
jeweils ein ODER-Glied 5 und ein NAND-Glied 6 akti- 
viert sind Eine dritte Zelle 103 wird nur ais Leitungszel- 
ie (Leiterbahnzelle) benutzt und die vierte Zeile 10.4 ist 
beziiglich des dritten NAND-Gliedes 6 aktiv geschaltet 
Das aus den vier Zellen 10.1 . . . 10.4 bestehende SUB- 
MACRO 2 steht somit stellvertretend fur einen l-Bit- 
Addierer, dh. ein l-Bit-Addierer einer Datenverarbei- 
tungseinrichtung gemaB der vorliegenden Erfindung 
wird iiber vier entsprechend programmierte (konfigu- 
rierte) Zellen 10.1 ... 10.4 verifiziert. (Der Voilstandig- 
keit halber soli angemerkt werden, dafl die einzeinen 
Zellen ein erheblich umfangreicheres Netzwerk von lo- 
gischen Bausteinen, sprich Verknupfungsgliedern, und 
Invertern aufweist, die jeweils dem aktuellen Befehl der 
Ladelogik zufolge aktiv geschaltet werden kdnnen. Ne- 
ben den logischen Bausteinen ist auch ein dichtes Netz 
von Verbindungsleitungen zwischen den jeweils be- 
nachbarten Bausteinen und zum Aufbau von zeilen- und 
spaltenweisen Busstrukturen zur Dateniibertragung an- 
dererseits vorgesehen. so daB iiber eine entsprechende 
Programmierung seitens der Ladelogik quasi beliebige 
logische VerknQpfungsstrukturen impiementiert wer- 
den k6nnen), 

Der Vollstandigkeit halber ist in Fig. 5 der Zellenauf- 
bau eines 8-Bit-Addierers in seiner Gesamtheit darge- 
stellt. Die in Fig. 5 gezeigte Struktur entspricht insoweit 
der nach Fig. 2. wobei die in Fig. 2 symbolisch als SUB- 
MACROS 2 dargestellten l-Bit-Addierer Jeweils durch 
eine vier-zellige Einheit 10.1 . . . 10.4 ersetzt sind Bezo- 
gen auf den erfmdungsgemfifien DatenfluBprozessor 
bedeutet dies, daB zweiunddreiBig Zellen der zur Verfii- 
gung stehenden Gesamtheit von Zellen einer zellular 
mit logisch identischem Layout gefertigten Schaltungs- 
platine seitens der Ladelogik so angesteuert und konfi- 
guriert beziehungsweise programmiert werden, daB 
diese zweiunddreiBig Zellen ein 8-Bit-Addierer bilden. 

In der Darstellung nach Fig. 5 ist uber eine strich- 
punktierte Umrahmung ein SUBMACRO "X" zeichne- 
risch separiert, das ietztlich als aus vier einem l-Bit-Ad- 
dierer entsprechend programmierten Zellen (10 gemaB 



Fig. 4) bestehende Untereinheit zu betrachten ist 

Das in Fig. 5 separierte SUBMACRO "X" ist in Fig. 6 
als Teil eines integrierten Schaltkreises (Chip) 20 ge- 
meinsam mit Leitungs- und Datenanschlussen darge- 
5 stellt Das SUBMACRO ^'X" besteht aus den vier Zellen 
10 die entsprechend der orthogonalen Struktur je Seite 
vier Datenanschiilsse (also insgesamt sechzehn Daten- 
anschlusse je Zelle) aufweisen. Die Datenanschlusse 
verbinden jeweils benachbarte Zellen, so daB ersichtlich 
10 wird, wie beispielsweise eine Dateneinheit von Zelle zu 
Zelle durchgeschleust wird Die Ansteuerung der Zellen 
10 erfolgt einerseits iiber sogenannte lokale Steuerun- 
gen, das sind lokale Leitungen, die mit alien Zellen ver- 
bimden sind, und andererseits iiber sogenannte giobale 

15 Leitungen, d. h. Leitungen, die Qber den gesamten inte- 
grierten Schaltkreis (Chip) 20 gefiihrt sind. 

In Fig. 7 ist ein vergroBerter Ausschnitt eines inte- 
grierten Schaltkreises 20 dargestellt, der mit einem or- 
thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 7 

20 angedeutet kann so zum Beispiel eine Gruppe von vier 
Zellen 10 als SUBMACRO "X" ausgewahlt und dem 
l-Bit-Addierer entsprechend Fig. 4 gemaB program- 
miert beziehungsweise konfiguriert werden. 
Ein vollst^ndiger integrierter Schaltkreis (Chip) 20 ist 

25 in Fig. 8 dargestellt Dieser integrierte Schaltkreis 20 
besteht aus einer Vielzahl im orthogonalen Raster ange- 
ordneter Zellen 10 und weist an seinen AuBenkanten 
eine entsprechende Anzahl von Leitungsanschlilssen 
(Pins) auf, uber die Signale, insbesondere Ansteuersi- 

30 gnale und Daten zugefiihrt und weitergeleltet werden 
konnen. In Fig. 8 ist wiederum das SUBMACRO "X" 
gemaB Fig. 5/Fig. 6 abgegrenzt; dariiberhinaus sind 
auch weitere SUBMACROS separiert, die spezifischen 
Funktionen und Vemetzungen entsprechend zu Unle- 
ss reinheiten zusammengefaBt sind Dem integrierten 
Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
beziehungsweise iibergeordnet, iiber die der integrierte 
Schaltkreis 20 programmiert und konfiguriert wird. Die 
Ladelogik 30 teilt Ietztlich dem integrierten Schaltkreis 

40 20 mit, wie er arithmetisch-logisch zu arbeiten hat Be- 
zugnehmend auf die Fig. 1 bis 5 ist in Fig. 8 einerseits 
das SUBMACRO "X" entsprechend Fig. 4 und Fig. 5 
hervorgehoben; andererseits ist auch ein MACRO T" 
entsprechend Fig. 1 und Fig. 2 angezeichnet, das als Ein- 

45 heit einem 8-Bit-Addierer entspricht 

Anhand von Fig. 9 beziehungsweise Fig. 10 soil im 
folgenden eine Rechnerstruktur beschrieben werden, 
die auf den im vorstehenden definierten und erlauterten 
integrierten Schaltkreis 20 aufbaut 

50 GemaB dem in Fig. 9 dargestellten ersten Ausftih- 
rungsbeispiel ist — analog zur Anordnung der Zellen — 
im Orthogonalraster eine Mehrzahl von integrierten 
Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
iiber lokale BUS- Leitungen 21 miteinander gekoppelt 

55 beziehungsweise vemetzt sind Die — beispielsweise 
aus sechzehn integrierten Schaltkreisen 20 bestehende 
— Rechnerstruktur weist Ein-/Ausgangsleitungen lO 
auf, iiber die der Rechner quasi mit der AuBenwelt in 
Verbindung steht, d h. korrespondiert Der Rechner ge- 

60 maB Fig. 9 weist ferner einen Speicher 22 auf, der dem 
dargestellten Ausfilhrungsbeispiel entsprechend aus 
zwei separierten Speichern, zusammengesetzt aus je- 
weils RAM, ROM sowie einem Dual-Ported RAM als 
shared memory zu der Ladelogik geschaltet, besteht, die 

65 gleichermaBen als Schreib-Lese-Speicher oder auch nur 
als Lese-Speicher realisiert sein konnen. Der soweit be- 
schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
beziehungsweise iibergeordnet, mittels der die inte- 
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grierten Schaltkreise (DatenfluBprozessor) 20 program- 
miert und konfiguriert und vernetzt werden. 

Die Ladelogik 30 baut auf einem Transputer 31, d. h. 
einem Prozessor mit mikrocodiertem Befehlssatz auf, 
dem seinerseits ein Speicher 32 zugeordnet ist Die Ver- 
bindung zwischen dem Transputer 31 und dem Daten- 
fluBprozessor basiert auf einer Schnittstelle 33 fur die 
sogenannten Ladedaten, d h- die Daten die den Daten- 
fluBprozessor aufgabenspezifisch programmieren und 
konfigurieren und einer Schnittstelle 34 fur den bereits 
genannten Rechnerspeicher 22, d. h. den Shared-Memo- 
ry-Speicher. 

Die in Fig, 9 dargestellte Struktur stellt so einen kom- 
pletten Rechner dar, der aber die Ladelogik 30 jeweils 
fall- beziehungsweise aufgabenspezifisch programmiert 
und konfiguriert werden kaxui. Der Vollstandigkeit hal- 
ber sei noch angemerkt, daB — wie in Verbindung mit 
der Ladelogik 30 Qber Pfeile angedeutet — mehrere 
dieser Rechner vernetzt, d. h. miteinander gekoppelt 
werden kdnnen. 

Ein weiteres Ausfiihrungsbeispiel einer Rechner- 
struktur ist in Fig. 10 dargestellt Im Unterschied zu 
Fig. 9 sind dabei neben den lokalen BUS-Leitungen zwi- 
schen den benachbarten integrierten Schaltkreisen 20 
noch ubergeordnete zentrale BUS-Leitungen 23 vorge- 
sehen, um zum Beispiel spezifische Ein- beziehungswei- 
se Ausgangsprobleme iasen zu konnen. Auch der Spei- 
cher 22 (Shared-Memory) ist uber zentrale BUS-Leitun- 
gen 23 mit den integrierten Schaltkreisen 20 verbunden, 
und zwar wie dargestellt jeweils mit Gruppen dieser 
integrierten Schaltkreise. Die in Fig. 10 dargestellte 
Rechnerstruktur weist die gleiche Ladelogik 30 auf» wie 
sie anhand von Fig. 9 eriautert wurde. 

In Verbindung mit Fig. 1 la soil eine auf erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Additions- 
schaltung eriautert werden. Ausgegangen wird von zwei 
Zahlenreihen An und Bn fQr samtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Ci Ai + Bi 
zu bilden, wobei der Index i die Werte 0 « n < 9 anneh- 
men kann. 

Bezugnehmend auf die Darstellung nach Fig. 11a ist 
die Zahlenreihe An in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse lOOOh; die Zahlenreihe Bn ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe Cn wird in den RAMI eingeschrieben und 
zwar unter der Adresse lOOah. 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt. Dies soil im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROS ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten MACROs dienen. 

Fig. 11a zeigt zun^chst die eigentliche Additions- 
schaltung 40. die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe An und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe Bn besteht. Den bei- 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend 
dem in Fig. 1 dargestellten MACRO 1 nachgeschaltet. 
Der Ausgang des MACRO 1 fuhrt Qber eine Treiber- 
schaltung 43 zurQck zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Addidonsschaltung 
40 erfolgt fiber eine von einem Taktgenerator T ange- 
steuerte Zeitsteuerung (STATEMACHINE) 45. die mit 
den Registern 41, 42 und der Treiberschaltung 43 ver- 
bunden ist. 

Die Additionsschaltung 40 wird funktionai durch eine 
AdreBschaitung 46 zur Generiening der AdreBdaten fQr 
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die abzuspeichernden Additionsergebnisse ergSnzt. Die 
AdreBschaitung 46 besteht ihrerseits aus drei MACROs 
1 (gemaB Fig. 1) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
fiir An, Bn, Cn zugefuhrt Diese Adressen werden mit 
den Ausgangssignalen eines Zahlers 47 addiert und mit 
der Statemachine 45 so verknUpft, daB am Ausgang die 
neue Zieladresse ansteht Der Zahler 47 und der Kom- 
parator 48 haben dabei die Aufgabe sicherzustellen, daB 
jeweils die richtigen Summanden verkniipft werden und 
daB jeweils am Ende der Zahlenreihen, d h. bei n =- 9 
abgebrochen wird 1st die Addition vollendet, so wird in 
der Zeitsteuerung 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisations-Schal- 
tung verwendet werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen MLl Programm beendet ist und die MA- 
CROs somit durch neue ersetzt werden konnen (zum 
Beispiel kdnnte STOP das Signal Sync5 sein). 

Der Zeitablauf in der Zeitsteuerung 45 (STATEMA- 
CHINE) laBt sich dabei wie folgt darstellen, wobei noch 
anzumerken ist, daB in der Zeitsteuerung 45 eine Verz6- 
gerungszeit T (in Form von Taktzyklen) zwischen der 
AdreBgenerierung und dem Datenerhalt implementiert 
ist: 

— Im Zyklus 1 wird jeweils der Zahler 47 um 1 
erh6ht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 
den die Adressen fur A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A. B 
ausgelesen und addiert; 

— im Zyklus (T H- 2) wird die Sunwne C abgespei- 
chert. 

Mit anderen Worten heiBt dies, daB die Operations- 
schleife und die eigentliche Addition gerade ( T + 2) 
Taktzyklen erfordert, Im allgemeinen sind fur T 2 ... 3 
Takte erforderlich, so daB verglichen mit den herkomm- 
lichen Prozessoren (CPU), die im allgemeinen 50 bis 
mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 
che Rechenzeit-Reduzierung moglich wird 

Die anhand von Fig. 1 1 aufgezeigte Konfiguratlon 
soli im folgenden uber eine hypothetische MACRO- 
Sprache MLl nochmals eriautert werden: 
Es existieren die Zahlenreihen An und Bn 
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Es sollen die Summen Ci 
werden. 
const n = 9; 

array A [n] in RAM [1] at lOOOh; 
array B [n] in RAM [2] at OdfaOh; 
array C [n] in RAM [1] at lOOah; 
fori « Otonwith(A[i],B[i],C[i]) 
Al; 

C = Al = A -h B; 
next; 

RAMI ist der 1. Spetcherblock 
RAM2 ist der 2. Speicherblock 
at folgt die Basisadresse der Arrays 
for ist der Schleifenbeginn 
next ist das Schleifenende 

with ( ) folgen die Variablen, deren Adressen durch die 
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Zahlvariable i bestimmt werden 

A T folgt die Verzogerungszeit fur eine Statemachine in 
TaktzykJen. 

Das Timing der Statemachine sieht demnach folgen- 
dermaBen aus: 

Zyklus Aktivitat 

1 Zahler erhohen, Vergleich auf > 9 (ja => 

Abbruch) und Adressen f fir A, B, C, 
berechnen 

T + 1 A, B, holen und addieren 

T + 2 Nach C speichem 

Das helBt — wie bereits erwahnt — die Schleife und die 
Addition benotigen gerade einmai T + 2 Taktzyklen. 

Fig. lib zeigt den groben Aufbau der einzelnen 
Funktionen (N4ACROs) in einem DFR Die MACROs 
sind in ihrer etwaigen Lage und GroBe eingezeichnet 
und mit den anhand von Fig. 11a eriauterten entspre- 
chenden Nummern versehen. 

Fig, 1 Ic zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-BlOcke 1 und 2: Die Sunimanden 
werden nacheinander in aufsteigender Reihenfo[ge aus 
den RAM-Bldcken 1 und 2 ab Adresse lOOOh bezle- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 
Schaitung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soli 
ein neues Progranmi geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soli zur Laufzeit er- 
foigen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen An und Bn, wobei An 
durch das Ergebnis Cn des vorher ausgefiihrten Pro- 
gramms gegeben ist: 
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Es sollen die Produkte Ci 
werden. 
const n=»9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at 1015h 
for i « 0 to n with ( A[i] , B[i] . c[i]) 
Al: 

C«A1=A»B: 

next; 

Die Beschreibung der einzelnen Befehle ist bereits be- 
kannt," 

• symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 18a beschrieben, 
Fig. 18b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GroBe des Multipiizierers 2 in Vergleich 
zu Addierer 1 aus Fig. lib. In Fig. 18c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
zahler 47 zahlt emeut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zuriickgesetzt 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen, 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d. h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fiihrt nun dazu, daB der Zahler wahrend des Programm- 



ablaufs von 19 auf 29 hochiauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wiirde der Zahler er- 
neut von 0 auf 9 laufen, da er zuriickgesetzt wird). 
5 Bei naherer Betrachtung des Problems stellt sich die 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefOhrt 
werden, also die Operation: 
Es existieren die Zahlenreihen An und Bn, wobei An 
10 durch das Ergebnis von Cn des vorher ausgefiihrten 
Programms gegeben ist: 

Vn:0<=n<=9 

15 Es sollen die Produkte Ci«(Ai + Bi) ♦ Bi mit I e N ge- 
bildet werden. 
path D; . 
const n = 9; 

array A[n] in RAM[1] at lOOOh 
20 array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
for i = 0 to n with (A[i] , Bp] . C[i]) 
Al; 

D=Al=AbB; 
25 C = A1«D»B; 
next; 

path D defmiert einen internen nicht aus den DFP 
herausgefiihrten Doppelpfad. Die Operation benotigt 
wegen einem zusatziichen Al einen Taktzyklus mehr als 

30 vorher, ist insgesamt jedoch schneiler als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schleife nur einmai durchlaufen wird, zum zweiten 
nicht umgeladen wird. 
Prinzipieli kdnnte das Programm auch so formuliert 

35 werden: 
const n= 9; 

array A[n] in RAM[1] at 1 OOOh 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[i] at lOOah 
40 for i=0 ton with (A[i],B[i],q;i]) 
A-- 1; 

C=-A2=(A-I-B)*B; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
45 tiplizierers zusammen kleiner als ein Taktzyklus, kann 

die Operation (A-f B) • B auch in einem Taktzyklus 

durchgefuhrt werden, was zu einer weiteren erhebli- 

chen Geschwindigkeitssteigerung fuhrt: 

const n= 9; 
50 array A[n] in RAM[1] at lOOOh 

array B[n] in RAM[2] at OdfaOh 

array C[n] in RAM[1] at 1 OOah 

f or i = 0 to n with (A[i], Bp], C[i]) 

Al; 

55 C = A1-(A + B)»B; 
next; 

Anhand von Fig, 12 soil ein einfaches Beispiel eines 
Zellenaufbaus eriautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-Glied 51, ein ODER-Glied 52, ein 

60 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zeiie 55. Die Zelle 10 weist darilberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzelin Eingangen 
der Zelle entsprechend Fig. 6) zum Beispiel je sechzehn 
Eingangsanschlflssen INI, IN2 auf. Ober diesen 

65 (16 : 1)- Multiplexer 56/57 werden jeweils die den ge- 
nannien logischen Gliedern UND, ODER, XOR 51 ... 
53 zuzufiihrenden Daten ausgewahlt. Diese logischen 
Glieder sind ausgangsseitig mit einem (3 : 1)-Multiple- 
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xer 58 gekoppelt, der seinerseits mit dem Eingang des 
Inverters 54, einem Eingang der Registerzelle 55 und 
einem weiteren (3 : 16)-Multiplexer 59 gekoppelt ist 
Der letztgenannte Multiplexer 59 ist zusatzlich mit dem 
Ausgang des Inverters 54 und einem Ausgang der Regi- 5 
sterzelie 55 verbunden und gibt das Ausgangssignal 
OUTab. 

Der VoIlstSndigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 10 

Dem im vorstehenden eriauterten Zellenaufbau, d. h. 
der Zelle tO ist nun eine Ladelogik 30 iibergeordnet, die 
mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewOnschten Funktionen entsprechend an- 
steuert. j5 

Soilen zum Beispiel die Signale A2 mit B5 verundet 
werden, so werden die Multiplexer 56, 57 den Leitungen 
^'ZWEI" beziehungsweise "FONP entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 20 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 
Soli zum Beispiel eine NAND-VerknUpfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 25 

Patentansprflche 

L Datenverarbeitungseinrichtung, wobei ein (im 
folgenden DatenfluBprozessor — DFP — genann- 30 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 35 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
Ein-/AusgangsanschlQssen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB den Zellen eine Ladelogik zugeordnet ist, uber 40 
die sie je fUr sich und gegebenenfalls gruppenweise 
zusammengefaBt so programmierbar (konfigurier- 
bar) sind, daB beliebige logische Funktionen und/ 
Oder Vernetzungen untereinander verifizierbar 
sind, und zwar derart, daB eine Manipulation der 45 
DFP- {Configuration wahrend des Betriebes (oder 
zur Laufzeit), d. \l die Modifikation funktioneller 
Teile (MACROS) des DFPs erfolgen kann, ohne 
daB andere funktionelle Teile angehalten werden 
mussen oder in ihrer Funktion beeintrachtigt wer- 50 
den. 

2. Datenverarbeitungseinrichtung nach Anspruch 1, 
dadurch gekennzeichnet, daB die Ladelogik mit 
Speichermitteln gekoppelt ist, uber die die Konfi- 
guration der Zellen spezifizierbar ist 55 

3. Datenverarbeitungseinrichtung nach einem der 
Anspriiche 1 bis 2, dadurch gekennzeichnet, daB die 
Ladelogik aus einem Prozessor besteht, der den 
gesamten Programmablauf auf der Gnmdlage von 

in verschiedenen Speichern abgelegten Daten und eo 
Programmen im Sinne einer Harvard-Struktur ver- 
waltet. 

• 4. Datenverarbeitungseinrichtung nach Anspruch 3, 
dadurch gekennzeichnet, daB die Ladelogik ihrer- 
seits aus Zellen mit Je einer Mehrzahl jeweils lo- 55 
gisch gleicher und strukturell identisch angeordne- 
ter Bausteine aufgebaut ist. 

5. Datenverarbeitungseinrichtung nach einem der 
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14 

Anspriiche 1 oder 4, dadurch gekennzeichnet, daB 
die Zellen dynamisch wahrend eines Programmab- 
laufs umkonfigurierbar sind, ohne daB die zu bear- 
beitenden Daten selbst beeinfluBt werden. 

6. Datenverarbeitungseinrichtung, wobei ein (im 
folgenden DatenfluBprozessor — DFP — genann- 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
Ein-ZAusgangsanschliissen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB eine Mehrzahl von ihnen in Kaskadenform 
koppelbar sind 

7. Datenverarbeitungseinrichtung nach einem der 
Anspriiche 1 bis 6, gekennzeichnet durch, die Zu- 
ordnung geeigneter Daten-Em-/Ausgabe-Einhei- 
ten und mindestens eines Speichers zum Aufbau 
eines (komplexen, kompletten) Rechenwerks. 

8. Datenverarbeitungseinrichtung nach einem der 
Anspriiche 1 bis 7, dadurch gekennzeichnet, daB die 
Funktionen der Ein-/Ausgabeeinheiten partiell im 
integrierten Schaltkreis (Chip) implementierbar 
sind 
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